## Arquitectura e Ingeniería de Computadores

#### UT 3. Subsistema de memoria

## Tema 3.1 Prestaciones del subsistema de memoria

A. Doménech, J. Duato, P. López, V. Lorente, A. Pérez, S. Petit, J.C. Ruiz, S. Sáez

Departamento de Informática de Sistemas y Computadores Universitat Politècnica de València



#### Índice

- Repaso de la jerarquía de memoria.
- Repaso de la estructura y funcionamiento de las caches
- Evaluación de las prestaciones del subsistema de memoria.

### Bibliografía



John L. Hennessy and David A. Patterson. Computer Architecture, Fifth Edition: A Quantitative Approach.

Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 5 edition, 2012.

#### Índice

- 1 Repaso de la jerarquía de memoria.
- 2 Repaso de la estructura y funcionamiento de las caches
- 3 Evaluación de las prestaciones del subsistema de memoria.

#### Jerarquía de memoria

- "...los programadores pretenden acceder a cantidades ilimitadas de memoria rápida..."
- → No existe ninguna tecnología capaz de proporcionarlo Solución: organización jerárquica utilizando distintas tecnologías. Jerarquía de memoria organización de la memoria en diferentes niveles, donde cada nivel es más pequeño, más rápido y más caro que el nivel inferior.



# Jerarquía de memoria (cont.)

- ¿Porqué la jerarquía proporciona buenas prestaciones?
  - Objetivo: velocidad cercana al más rápido.
  - Principio de localidad. Los programas tienden a reutilizar el código y los datos utilizados recientemente.
    - Localidad temporal: los items accedidos recientemente serán accedidos también en el futuro próximo.
      - Alta en el código: "El 10 % del código se ejecuta durante el 90 % del tiempo de ejecución de un programa".
    - Localidad espacial: ítems con direcciones cercanas tienden a referenciarse cercanamente en el tiempo. → organización en bloques.
- ¿Porqué es una solución eficiente?
  - Combina tecnologías con distintas características.
    - Rápidas pero caras para prestaciones.
    - Densas pero baratas (coste por bit) para almacenamiento.

### Importancia de la jerarquía de memoria

La diferencia de velocidad entre el procesador y la memoria DRAM ha crecido exponencialmente en la última década  $\rightarrow$  necesidad de jerarquía de cache.



- En 1980, los procesadores no llevaban caches.
- En 2001, dos niveles de cache en el propio chip.
- Actualmente muchos sistemas incorporan tres niveles de cache.

# Requisitos diferentes según tipo de computador

Computador de sobremesa Un usuario, una aplicación.

Objetivo: reducir latencia.

Servidores Múltiples usuarios, múltiples aplicaciones.

Obietivos: ancho de banda, protección.

Computadores empotrados Una aplicación, a veces sin sistema operativo. Memoria principal pequeña.

Objetivos:

- Tiempo-real (importante conocer las prestaciones del peor-caso).
- Bajo consumo.

#### Memorias cache

"Cache: un sitio seguro para esconder o almacenar cosas"

Cache: primer nivel de la jerarquía de memoria.

El término cache se emplea actualmente cuando se almacena información que se reutilizará: caches de ficheros, cache de disco, cache de nombres, etc.

Acierto: el procesador encuentra el dato en la cache.

Fallo: en caso contrario. El *bloque* que contiene la palabra accedida se trae desde la memoria principal a la cache.

La gestión de la cache: aciertos, fallos y reemplazos, se realiza mediante *hardware*.

#### Memoria Virtual

Si el sistema soporta memoria virtual, los objetos referenciados por un programa deben estar en memoria principal o en disco.

El espacio de direccionamiento se divide en páginas que deben estar en memoria para ejecutarse.

Si se produce un fallo de página, la página entera se transfiere desde el disco a la memoria principal.

Los fallos de página se gestionan por software y no detienen el procesador. El procesador cambia de contexto, ejecutando otra tarea mientras se realiza el acceso al disco.

#### Índice

- Repaso de la estructura y funcionamiento de las caches

#### Características de las memorias cache

Cualquier nivel de la jerarquía de memoria puede caracterizarse respondiendo a las preguntas siguientes:

- Ubicación de un bloque. ¿Dónde puede ubicarse un bloque?
- Identificación de un bloque. ¿Cómo se encuentra un bloque?
- Reemplazamiento. ¿Qué bloque se elimina ante un fallo?
- Política ante escrituras. ¿Qué se hace ante una escritura?

# Ubicación de un bloque



### Ubicación de un bloque (cont.)

Correspondencia directa Un bloque sólo puede estar almacenado en una línea de la cache.

```
#línea = #bloque_referenciado mod #líneas_de_cache
```

- Correspondencia totalmente asociativa Un bloque puede almacenarse en cualquier línea de la cache.
- Correspondencia asociativa por conjuntos de n vías Un bloque sólo puede almacenarse en un conjunto que contiene n líneas de la cache.

```
#conjunto = #bloque_referenciado mod #conjuntos_de_cache
```

#### Identificación de un bloque

Cada bloque almacenado en la cache tiene asociada una etiqueta.

Para saber si un bloque se encuentra en la cache, se compara el campo etiqueta de la dirección del bloque con las etiquetas del conjunto destino.

Partes de una dirección emitida por el procesador:



© 2003 Elsevier Science (USA). All rights reserved.

Un bit 'válido" (V) indica si una línea tiene o no información válida. Solo se comparan aquellas etiquetas que tienen el bit válido activo.

#### Identificación de un bloque (cont.)

# ¿Cómo comparar?

- En paralelo con todas las etiquetas. Con correspondencia directa. sólo una comparación.
- No hace falta incluir la palabra dentro del bloque (offset), ya que, el bloque completo está presente o ausente.

Para un mismo tamaño de cache, al aumentar la asociatividad aumenta el número de bloques por conjunto y disminuye el número de conjuntos, por lo que se reduce el tamaño del índice y aumenta el de la etiqueta.

### Reemplazamiento

Cuando hay un fallo de cache, el bloque referenciado se trae desde la memoria principal. Si el conjunto está lleno, ¿cuál se elimina?

Con correspondencia directa es trivial (solo 1 candidato).

Con correspondencia asociativa pueden emplearse varias estrategias:

LRU Menos recientemente usado. Explota la localidad temporal.

SeudoLRU Menos costoso que el LRU, prestaciones similares con muchas vías

Aleatoria Se elije un candidato al azar. Fácil de implementar. Útil para estructuras con poca localidad.

#### Políticas de escritura

Solo se modifica un dato (byte, palabra, ...) del bloque.

El bloque debe actualizarse también en la memoria principal (MP).

Estrategias en caso de acierto:

Write-through Se escribe tanto en la cache como en MP.

- Más fácil de implementar.
- La memoria principal siempre está actualizada.

Write-back Solo se escribe en la cache.

- Los bloques "sucios" (bit dirty activo) se actualizan en MP cuando se reemplazan.
- Emplea menos ancho de banda de memoria que Write-through.

Políticas de escritura (cont.)

Estrategias en caso de fallo:

Write allocate El bloque se trae a la cache.

Después, se llevan a cabo las acciones de escritura con acierto. Habitual con write-back

No-write allocate El bloque no se trae a la cache. Sólo se modifica en el nivel inferior. Habitual con write-through

## Políticas de escritura (cont.)

### Ejemplo: Cache de datos del Opteron

- 64KB, 2 vías, 64 bytes/bloque. Reemplazo LRU
- Write-back, write-allocate



#### Políticas de escritura (cont.)

- El procesador envía la dirección (40 bits) = Dirección de bloque: 34 bits + Desplazamiento: 6 bits
- Selección del conjunto (Índice):

$$2^{Indice} = \frac{Capacidad\ cache}{Tam.bloque \cdot Num.vias} = \frac{65536}{64 \cdot 2} = 512 = 2^9$$

Etiqueta: 34-9=25 bits

- Lectura de las dos etiquetas del conjunto y comparación con la emitida por la CPU. En paralelo, lectura de los dos datos del conjunto.
- En caso de acierto, selección de la entrada del multiplexor y envío del dato a la CPU.

#### Índice

- Evaluación de las prestaciones del subsistema de memoria.

# Tiempo de acceso medio

$$T_{
m acceso} = TA + TF \times PF$$

donde TA: tiempo de acierto en cache

TF: tasa de fallos

PF: penalización de fallo

Modificación de la ecuación del tiempo de ejecución para incluir el tiempo de la cache:

$$T_{\rm ej} = T_{\rm ej\ cpu} + T_{\rm extra\ memoria}$$

donde  $T_{\rm ei\ cpu}$  incluye el tiempo de acierto de cache y  $T_{\rm extra\ memoria}$  el tiempo para gestionar los fallos<sup>1</sup>.

<sup>&</sup>lt;sup>1</sup>suponiendo que los fallos detienen al procesador



- $T_{ei\ cpu} = I \times CPI \times T$
- $T_{\text{extra memoria}} = \text{Ciclos parada mem.} \times T$
- Ciclos parada mem. =  $N^0$  de fallos × Penaliz. por fallo = NF × PF
- N<sup>o</sup> de fallos = N<sup>o</sup> Instrucciones  $\times \frac{N^0 \text{Accesos}}{N^0 \text{Instrucciones}} \times \frac{N^0 \text{Fallos}}{N^0 \text{Accesos}} =$  $I \times API \times TF$

#### Sustituyendo:

$$T_{\text{extra memoria}} = I \times API \times TF \times PF \text{ (en ciclos)} \times T$$

Si consideramos que los accesos de lectura (L) y escritura (E) tienen distintas tasas de fallo y penalizaciones tenemos:

- LPI, TFL, PFL: respectivamente en lectura, número medio de accesos por instrucción, tasa de fallos y penalización
- EPI, TFE, PFE: respectivamente en escritura, número medio de accesos por instrucción, tasa de fallos y penalización

 $T_{\text{extra memoria}} = (I \times LPI \times TFL \times PFL \times T) + (I \times EPI \times TFE \times PFE \times T)$ donde.

$$TFL = \frac{NFL}{I + loads}$$
 y  $TFE = \frac{NFE}{stores}$ 

■ Si las penalizaciones son iguales (PFL = PFE = PF), podemos calcular la tasa de fallos unificada (TF'):

$$T_{\text{extra memoria}} = (I \times (LPI \times TFL \times PFL + EPI \times TFE \times PFE) \times T)$$

$$T_{\text{extra memoria}} = (I \times (LPI \times TFL + EPI \times TFE) \times PF \times T)$$

siendo API = LPI + EPI,

$$T_{\mathrm{extra\ memoria}} = (I \times API \times (\frac{LPI \times TFL + EPI \times TFE}{API}) \times PF \times T)$$

comparando con la expresión general,

$$T_{\text{extra memoria}} = (I \times API \times TF \times PF \times T)$$

podemos decir que la tasa de fallos unificada para lectura y escritura es,

$$TF' = \frac{LPI \times TFL + EPI \times TFE}{API} = \frac{LPI \times TFL}{API} + \frac{EPI \times TFE}{API}$$

Por otro lado, si consideramos que tenemos caches separadas para instrucciones (I) y datos (D), con distintas tasas de fallos y penalizaciones tenemos:

- *IPI*, *TFI*, *PFI*: respectivamente para instrucciones, número medio de accesos por instrucción, tasa de fallos y penalización
- DPI, TFD, PFD: respectivamente para datos, número medio de accesos por instrucción, tasa de fallos y penalización

$$T_{\text{extra memoria}} = (I \times IPI \times TFI \times PFI \times T) + (I \times DPI \times TFD \times PFD \times T)$$
 donde,

$$TFI = \frac{NFI}{I}$$
 y  $TFD = \frac{NFD}{loads+stores}$ 

- Habitualmente IPI es igual a 1.
- Es posible calcular también la tasa de fallos unificada de instrucciones y datos si las penalizaciones son iguales.

- Finalmente, se pueden considerar caches separadas (I+D) y además distinguir fallos de lectura y escritura combinando las fórmulas correspondientes.
- En el caso de cache de instrucciones sólo tienen que considerarse las lecturas.
- Siendo  $D_L$  lectura en datos,  $D_E$  escritura en datos:

$$T_{
m extra~memoria}$$
 =  $(I imes IPI imes TFI imes PFI imes T) + (I imes D_LPI imes TFD_L imes PFD_L imes T) + (I imes D_EPI imes TFD_E imes PFD_E imes T)$  donde,

$$TFI = \frac{NFI}{I}$$
 ,  $TFD_L = \frac{NFD_L}{loads}$  y  $TFD_E = \frac{NFD_E}{stores}$